#caché kv

Leyline: Directivas de Caché KV para Inferencia Agentiva

Leyline introduce directivas para editar la caché KV sin re-prefill completo. Reduce latencia hasta 241 ms y mejora tasa de resolución en +14.3 pp.

2026-06-02 · 3 min

MURMUR: Sistema eficiente de inferencia para ASR de larga duración

Murmur: sistema de inferencia para ASR de larga duración que reduce la latencia 4.2x sin degradar la precisión. Atención dispersa y evicción de caché KV.

2026-06-02 · 3 min

Mueve la consulta, no el caché: atención entre instancias GPU

Mueve la consulta en lugar del caché KV y reduce la latencia en atención entre GPUs. Optimiza clusters H100 con RDMA.

2026-06-02 · 3 min

STaR-KV: Compresión de caché KV en modelos de lenguaje visual para GUI

STaR-KV comprime la caché KV en modelos GUI sin entrenamiento, reduciendo memoria GPU un 40% sin penalizar precisión. Descubre cómo.

2026-06-02 · 2 min

WaveFilter: Filtrado guiado por wavelets para contexto largo en LLMs de difusión

WaveFilter mejora el rendimiento de LLMs de difusión en contexto largo mediante filtrado guiado por wavelets del caché KV.

2026-06-02 · 2 min

OBCache: poda óptima de caché KV para LLMs de contexto largo

Descubre OBCache, la técnica de poda de caché KV que optimiza la memoria en LLMs para inferencia en contextos largos sin sacrificar precisión.

2026-06-01 · 2 min

Evita el vaivén: Verificación con preservación de contexto

Descubre COVER: verificación eficiente que elimina oscilaciones y acelera la inferencia en decodificación difusiva revocable.

2026-06-01 · 2 min

Moment-KV: Compresión de Caché KV en Tiempo de Decodificación Basada en Momento para Generación Larga

2026-05-30 · 1 min

VideoMLA: Caché KV latente de bajo rango para difusión de video autoregresiva a escala de minutos

2026-05-29 · 2 min

Cuantización Multiplicativa de Cuaterniones de Hurwitz para la Compresión de Caché KV

Cuantización multiplicativa de cuaterniones de Hurwitz para compresión de caché KV. Mejora la eficiencia de memoria en modelos de lenguaje sin perder precisión.

2026-05-29 · 2 min